越来越多的间歇可再生能源的整合,特别是在分配水平,需要对TheGrid的知识而设计的先进规划和优化方法,特别是捕获电网拓扑和线参数的进入矩阵。然而,对进入矩阵的可靠估计可以丢失或迅速地过时用于时间变化网格。在这项工作中,我们提出了利用从微量PMU收集的电压和电流测量的数据驱动的识别方法。更确切地说,我们首先呈现最大的似然方法,然后朝着贝叶斯框架移动,利用最大后验估计的原则。与大多数现有的Con-Tribution相比,我们的方法不仅是电压和电流数据上的测量噪声中的因素,而且还能够利用可用的先验信息,例如稀疏性模式和已知的列表参数。在基准案件上进行的模拟表明,与储藏仪相比,我们的方法可以实现明显更大的准确性。
translated by 谷歌翻译
Learned locomotion policies can rapidly adapt to diverse environments similar to those experienced during training but lack a mechanism for fast tuning when they fail in an out-of-distribution test environment. This necessitates a slow and iterative cycle of reward and environment redesign to achieve good performance on a new task. As an alternative, we propose learning a single policy that encodes a structured family of locomotion strategies that solve training tasks in different ways, resulting in Multiplicity of Behavior (MoB). Different strategies generalize differently and can be chosen in real-time for new tasks or environments, bypassing the need for time-consuming retraining. We release a fast, robust open-source MoB locomotion controller, Walk These Ways, that can execute diverse gaits with variable footswing, posture, and speed, unlocking diverse downstream tasks: crouching, hopping, high-speed running, stair traversal, bracing against shoves, rhythmic dance, and more. Video and code release: https://gmargo11.github.io/walk-these-ways/
translated by 谷歌翻译
Recent improvements in conditional generative modeling have made it possible to generate high-quality images from language descriptions alone. We investigate whether these methods can directly address the problem of sequential decision-making. We view decision-making not through the lens of reinforcement learning (RL), but rather through conditional generative modeling. To our surprise, we find that our formulation leads to policies that can outperform existing offline RL approaches across standard benchmarks. By modeling a policy as a return-conditional diffusion model, we illustrate how we may circumvent the need for dynamic programming and subsequently eliminate many of the complexities that come with traditional offline RL. We further demonstrate the advantages of modeling policies as conditional diffusion models by considering two other conditioning variables: constraints and skills. Conditioning on a single constraint or skill during training leads to behaviors at test-time that can satisfy several constraints together or demonstrate a composition of skills. Our results illustrate that conditional generative modeling is a powerful tool for decision-making.
translated by 谷歌翻译
我们提出了一个系统,用于准确预测各种刚性物体的稳定取向。我们建议通过使用条件生成模型准确地对接触表面进行分类,以克服旋转空间中多模式建模的关键问题。我们的系统能够从现实世界深度摄像机捕获的嘈杂和部分观察的点云观测中运行。我们的方法在模拟堆叠任务上大大优于需要高度准确旋转的当前最新系统,并在现实世界重新定向任务上展示了强大的SIM2REAL零拍传输结果。项目网站:\ url {https://richardrl.github.io/stable-reorientation/}
translated by 谷歌翻译
我们提出了Panohdr-nerf,这是一种新颖的管道,可随意捕获大型室内场景的合理的全HDR辐射场,而无需精心设计或复杂的捕获协议。首先,用户通过在场景中自由挥舞现成的摄像头来捕获场景的低动态范围(LDR)全向视频。然后,LDR2HDR网络将捕获的LDR帧提升到HDR,随后用于训练定制的NERF ++模型。由此产生的Panohdr-NERF管道可以从场景的任何位置估算完整的HDR全景。通过在一个新的测试数据集上进行各种真实场景的实验,并在训练过程中未见的位置捕获了地面真相HDR辐射,我们表明PanoHDR-NERF可以预测任何场景点的合理辐射。我们还表明,PanoHDR-NERF产生的HDR图像可以合成正确的照明效果,从而可以使用正确点亮的合成对象来增强室内场景。
translated by 谷歌翻译
构建可靠的AI决策支持系统需要一组强大的数据来培训模型;在数量和多样性方面。在资源有限的设置或在部署的早期阶段中,获取此类数据集可能很困难。样本拒绝是应对这一挑战的一种方法,但是该领域的许多现有工作都不适合这种情况。本文证明了该立场并提出了一个简单的解决方案作为概念基线的证明。
translated by 谷歌翻译
离线RL算法必须说明其提供的数据集可能使环境的许多方面未知。应对这一挑战的最常见方法是采用悲观或保守的方法,避免行为与培训数据集中的行为过于不同。但是,仅依靠保守主义存在缺点:绩效对保守主义的确切程度很敏感,保守的目标可以恢复高度最佳的政策。在这项工作中,我们建议在不确定性的情况下,脱机RL方法应该是适应性的。我们表明,在贝叶斯的意义上,在离线RL中最佳作用涉及解决隐式POMDP。结果,离线RL的最佳策略必须是自适应的,这不仅取决于当前状态,而且还取决于迄今为止在评估期间看到的所有过渡。我们提出了一种无模型的算法,用于近似于此最佳自适应策略,并证明在离线RL基准测试中学习此类适应性政策。
translated by 谷歌翻译
当机器学习算法做出有偏见的决定时,了解差异来源以解释为什么存在偏见会很有帮助。在此方面,我们研究了量化每个单独特征对观察到的差异的贡献的问题。如果我们可以访问决策模型,则一种潜在的方法(从解释性文献中的基于干预的方法启发)是改变每个单独的功能(同时保持其他功能),并使用结果变化的差异来量化其贡献。但是,我们可能无法访问该模型,也无法测试/审核其输出以单独变化的功能。此外,该决定可能并不总是是输入特征(例如,在循环中)的确定性函数。对于这些情况,我们可能需要使用纯粹的分布(即观察性)技术来解释贡献,而不是介入。我们提出一个问题:当确切的决策机制无法访问时,每个单独特征对在决策中观察到的差异的“潜在”贡献是什么?我们首先提供规范的示例(思想实验),以说明解释贡献的分布和介入方法之间的差异,以及何时更适合。当无法干预输入时,我们通过利用一种称为部分信息分解的信息理论中的作品来量化有关最终决策和单个特征中存在的受保护属性的“冗余”统计依赖性。我们还进行了一个简单的案例研究,以显示如何应用该技术来量化贡献。
translated by 谷歌翻译
使用深神经网络的价值近似是非政策深度强化学习的核心,并且通常是为其余算法提供学习信号的主要模块。虽然多层感知器网络是通用函数近似器,但神经内核回归的最新作品表明存在光谱偏置,在该值函数的高频组件中拟合的高频组件需要比低频率的梯度更新步骤。在这项工作中,我们通过内核回归的镜头重新检查了违反政策的增强,并建议通过复合神经切线核克服这种偏见。只有单个线路变化,我们的方法,傅立叶功能网络(FFN)在挑战性连续控制域上产生最先进的性能,只有一小部分计算。更快的收敛速度和更好的非政策稳定性也使删除目标网络而不会遭受灾难性差异,这进一步降低了TD}(0)对一些任务的估计偏差。
translated by 谷歌翻译
在机器人上应用增强学习(RL)方法通常涉及培训模拟和部署现实世界中的机器人的政策。由于现实世界和模拟器之间的模型不匹配,以这种方式部署的RL代理商倾向于逐渐执行。为了解决这个问题,研究人员制定了强大的政策学习算法,依赖于合成噪声干扰。但是,这些方法在目标环境中不保证性能。我们提出了一种凸起风险最小化算法,以估计模拟器和目标域之间的模型不匹配使用来自两个环境的轨迹数据。我们表明该估计器可以随着模拟器使用,以评估目标域中的RL代理的性能,有效地弥合这两个环境之间的差距。我们还表明,我们的估算器的收敛速度为$ {n { - 1/4}} $,其中$ n $是培训样本的数量。在仿真中,我们展示了我们的方法如何有效地近似和评估GridWorld,Cartpole和Reverser环境的性能。我们还表明,我们的方法能够使用模拟器和远程收集来自现实世界中的机器人的远程收集的数据来估计7 DOF机器人手臂的性能。
translated by 谷歌翻译